早期發展
正如 Day 1 生成式 AI 的基本原理 提到,生成式 AI 是基於機器學習與深度學習,而機器學習這個詞,最早是在 1952 年,為了製作下棋的演算法而誕生的。
而早期的生成模型,如馬可夫鏈 (Markov Chains) 和隱馬可夫模型(Hidden Markov Models, HMMs)被用來生成簡單的文字和語音。這些模型雖然在現代標準下顯得簡單,但它們為後來的生成技術打下了基礎。
深度學習的興起與突破
隨著深度學習技術的突破,生成式 AI 迎來了重要的發展階段。深度神經網路特別是卷積神經網路(Convolutional Neural Network, CNN)和遞歸神經網路(Recurrent Neural Network, RNN)的出現,使得 AI 在圖片、文字等領域的生成能力大幅提升。這時的重要模型包括自回歸模型和自編碼器。
而背後的突破,也與硬體突破有關,受惠於 GPU 速度大幅提升。
生成式對抗網路(Generative Adversarial Network, GAN)的誕生
在 2014 年,為了讓電腦生成圖片,伊恩·古德費洛 (Ian J. Goodfellow) 在酒吧想到了一個點子,如果讓兩個神經網路互相對抗會發生什麼事情?
一個生成器(Generator)負責建立假資料,另一個判別器(Discriminator)負責判斷資料的真實性。兩者通過不斷的對抗訓練,使得生成器生成的資料逐漸逼真到幾乎無法區分真偽。
這成為了生成式 AI 重要的里程碑之一。
Google Transformer 誕生
在 2017 年,Google 發佈一篇論文提到了 Transformer 架構徹底改變了自然語言處理 (Natural Language Processing, NLP) 的研究方向。
現在 Transformer 正在逐步取代卷積神經網路 (CNN) 和遞歸神經網路 (RNN)
在 Transformer 誕生之前,使用者必須提供大型標記資料集來訓練神經網路,而這些資料集的生產成本高且耗時。有了 Transformer 之後,不用標記資料,大幅減少前處理的成本。而且 Transformer 還能並行處理,無疑間加速了生成的速度!
基於 Transformer 有 BERT (Bidirectional Encoder Representations from Transformers) 與 GPT (Generative Pre-Trained Transformers) 等模型,更進一步促進了生成式 AI 在資料生成的發展。
小結語
現在生成式 AI 模型都是基於 Transformer 衍伸,例如
- OpenAI 的 GPT-4o
- Meta 的 Llama 3.1 405B
- Google 的 Gemini 1.5 Pro
- Anthropic 的 Claude 3.5 Sonnet
如今嚴然進入生成式 AI 模型戰國時代,會不會有另一個新的架構打破這個局面?令人期待生成式 AI 的發展
參考
- Computer Science & Artificial Intelligence Laboratory, Massachusetts Institute of Technology, Explained: Generative AI, https://www.csail.mit.edu/news/explained-generative-ai
- DATAVERSITY, A Brief History of Generative AI, https://www.dataversity.net/a-brief-history-of-generative-ai/
- NVIDIA, Deep Learning in a Nutshell: History and Training, https://developer.nvidia.com/blog/deep-learning-nutshell-history-training/
- MIT Technology Review, The GANfather: The man who’s given machines the gift of imagination, https://www.technologyreview.com/2018/02/21/145289/the-ganfather-the-man-whos-given-machines-the-gift-of-imagination/
- NVIDIA, What Is a Transformer Model, https://blogs.nvidia.com/blog/what-is-a-transformer-model/
- Google Research, Transformer: A Novel Neural Network Architecture for Language Understanding, https://research.google/blog/transformer-a-novel-neural-network-architecture-for-language-understanding/
- Artificial Analysis, Comparison of Models: Quality, Performance & Price Analysis, https://artificialanalysis.ai/models